一贯的高数据质量对于深度学习领域的新型损失功能和体系结构的发展至关重要。通常假定存在此类数据和标签的存在,而在许多情况下,获取高质量数据集仍然是一个主要问题。在现实世界数据集中,由于注释者的主观注释,我们经常遇到模棱两可的标签。在我们以数据为中心的方法中,我们提出了一种重新标记标签的方法,而不是在神经网络中实施此问题的处理。根据定义,硬分类不足以捕获数据的现实歧义。因此,我们提出了方法“以数据为中心的分类和聚类(DC3)”,该方法结合了半监督分类和聚类。它会自动估计图像的歧义,并根据歧义进行分类或聚类。 DC3本质上是普遍的,因此除了许多半监督学习(SSL)算法外,还可以使用它。平均而言,这会导致分类的F1得分高7.6%,而在多个评估的SSL算法和数据集中,簇的内距离降低了7.9%。最重要的是,我们给出了概念验证,即DC3的分类和聚类是对此类模棱两可标签的手动完善的建议。总体而言,SSL与我们的方法DC3的组合可以在注释过程中更好地处理模棱两可的标签。
translated by 谷歌翻译